網(wǎng)絡(luò)和系統(tǒng)管理員是任何 IT 組織的骨干。它們?yōu)樗?IT 資源(無論是網(wǎng)絡(luò)、SD-WAN、服務(wù)器、應(yīng)用程序還是虛擬和云資源)提供關(guān)鍵監(jiān)控和支持。在與數(shù)百名網(wǎng)絡(luò)和系統(tǒng)管理員合作后,我們確定了最有效的 7 個(gè)關(guān)鍵習(xí)慣。
1. 避免數(shù)據(jù)泛濫
典型的網(wǎng)絡(luò)或系統(tǒng)管理員每天會(huì)收到多達(dá) 200 個(gè)警報(bào)。其中多達(dá) 80% 可以在正常工作時(shí)間內(nèi)觸發(fā)。這意味著在 10-12 小時(shí)的工作日內(nèi)平均需要對(duì) 160 個(gè)警報(bào)進(jìn)行分類。這大約每 5 分鐘發(fā)出 1 個(gè)警報(bào)!
這些警報(bào)中的大多數(shù)要么是冗余的,要么是較低優(yōu)先級(jí)的,并且可以很容易地進(jìn)行分類。但是,對(duì)它們進(jìn)行分類仍然需要時(shí)間和人工。分類冗余和低優(yōu)先級(jí)警報(bào)的任務(wù)不僅繁重,而且對(duì)網(wǎng)絡(luò)管理員的工作也有不利影響。
- 大量的警報(bào)和通知擠占了網(wǎng)絡(luò)管理員必須執(zhí)行的最重要任務(wù)。這反過來又會(huì)導(dǎo)致響應(yīng)時(shí)間變慢、錯(cuò)過最后期限和客戶不滿意。
- 網(wǎng)絡(luò)或系統(tǒng)管理員的工作質(zhì)量受到影響。
- 他們的生活質(zhì)量受到的影響更大。
最有效的網(wǎng)絡(luò)和系統(tǒng)管理員已經(jīng)意識(shí)到,為了讓他們的團(tuán)隊(duì)變得高效和有用,他們必須直面這個(gè)問題。他們的解決方案:
- 減少警報(bào)(有關(guān)減少警報(bào)的有用建議,請(qǐng)參閱此博客文章:對(duì)網(wǎng)絡(luò)和系統(tǒng)管理的Oxymoron攻擊)。
- 自動(dòng)分類剩余警報(bào)。換句話說,盤點(diǎn)一周左右收到的所有警報(bào),然后在您的監(jiān)控/警報(bào)平臺(tái)中建立業(yè)務(wù)規(guī)則,使冗余和低優(yōu)先級(jí)的警報(bào)靜音。
2. 部署單一窗格的玻璃儀表板
在任何給定時(shí)間,網(wǎng)絡(luò)或系統(tǒng)管理員必須監(jiān)控至少 10 到 12 種不同類型的資源。正如我們上面提到的,這些包括網(wǎng)絡(luò)、SD-WAN、服務(wù)器工作負(fù)載、應(yīng)用程序以及虛擬化和云資源。最重要的是,每個(gè)資源都有自己的工具。例如,網(wǎng)絡(luò)使用 Zabbix 和 Xymon 等網(wǎng)絡(luò)管理系統(tǒng),虛擬化服務(wù)器工作負(fù)載使用 vCenter 等工具,應(yīng)用程序使用 APM(New Relic 和 AppDynamics),以及 Meraki 等云資源對(duì)其硬件有自己的獨(dú)立視圖。
每個(gè)工具都有自己的儀表板。許多人聲稱提供“單一窗格”(SPOG)視圖。但是,并非所有人都符合要求。理想情況下,單塊玻璃應(yīng)展示以下三個(gè)特征:
- 被監(jiān)控元素的清晰和明確的狀態(tài)。
- 快速輕松地深入了解問題狀況。
- 最低限度甚至沒有“照顧和喂養(yǎng)”要求。
例如,這里是一個(gè)真正的 SPOG 應(yīng)該能夠產(chǎn)生的示例屏幕截圖。只有少數(shù)工具可以聲稱是真正的 SPOG。該領(lǐng)域流行的產(chǎn)品包括 IBM Tivoli、EMC Smarts 和OmniCenter。(我們目前正在撰寫一篇方便的博客文章,以幫助您確定您的 SPOG 是否真的是 SPOG。所以請(qǐng)?jiān)诓痪玫膶碜⒁膺@一點(diǎn)。)
3.自動(dòng)化可重復(fù)的任務(wù)
詢問任何網(wǎng)絡(luò)或系統(tǒng)管理員他們大部分時(shí)間是如何度過的,您會(huì)得到的最常見答案是:滅火。
這些人也承認(rèn),最緊迫的問題歸結(jié)為三件事:
- 大量冗余警報(bào)。
- 大量的新資源需要管理。
- 人為錯(cuò)誤。
我們已經(jīng)解決了上面的冗余警報(bào)問題。對(duì)于剩下的兩個(gè),自動(dòng)化是關(guān)鍵。最有效的網(wǎng)絡(luò)和系統(tǒng)管理員會(huì)毫不留情地將所有他們可以做的任務(wù)自動(dòng)化。然而,在他們開始之前,他們需要弄清楚兩個(gè)基本的事情:
- 要自動(dòng)化什么?
- 如何實(shí)現(xiàn)自動(dòng)化?
令人驚訝的是,確定要自動(dòng)化什么幾乎和如何做一樣復(fù)雜。那么,最有效的網(wǎng)絡(luò)和系統(tǒng)管理員如何構(gòu)建他們的自動(dòng)化優(yōu)先列表?嗯,首先要了解他們的日常活動(dòng)可以分為四大類:
- 重要且緊急的任務(wù)——您會(huì)發(fā)現(xiàn)這些項(xiàng)目在所有網(wǎng)絡(luò)和系統(tǒng)管理員的日常生活中都很常見,例如響應(yīng)警報(bào)。
- 不重要,但緊急任務(wù)——到目前為止,這里最常見的活動(dòng)是處理來自網(wǎng)絡(luò)和系統(tǒng)管理員負(fù)責(zé)的無數(shù)設(shè)備和應(yīng)用程序的冗余和誤報(bào)警報(bào)。
- 重要但不緊急的任務(wù)——在這個(gè)類別中的項(xiàng)目不是“放棄一切”任務(wù),但在大多數(shù)情況下,網(wǎng)絡(luò)和系統(tǒng)管理員最有資格處理的事情;例如容量規(guī)劃、新工具的部署和升級(jí)、為管理決策支持生成報(bào)告以及管理基礎(chǔ)架構(gòu)
- 不重要且不緊急的任務(wù)——列表中的最后一項(xiàng)是通常屬于網(wǎng)絡(luò)或系統(tǒng)管理員權(quán)限范圍內(nèi)的活動(dòng),但當(dāng)其他與基礎(chǔ)設(shè)施相關(guān)的火災(zāi)發(fā)生時(shí),它們會(huì)被推到優(yōu)先級(jí)列表中。此處的示例包括跟蹤設(shè)備元數(shù)據(jù)(例如序列號(hào))和支持合同狀態(tài),以及補(bǔ)丁管理和新設(shè)備供應(yīng)。
4. 使用模板
今天,每分鐘都有新資源上線。為確保它們符合您的信息系統(tǒng)政策,所有資源應(yīng):
- 配置方式相同。
- 遵循相同的監(jiān)控規(guī)則。
- 統(tǒng)一通知利益相關(guān)方。
- 使用一致的閾值和條件發(fā)出警報(bào)。
- 以同質(zhì)的方式報(bào)告。
最有效的網(wǎng)絡(luò)和系統(tǒng)管理員認(rèn)識(shí)到這些指令的重要性并部署基于模板的解決方案來解決它們。一個(gè)很好的例子是監(jiān)視 Microsoft SQL 服務(wù)器上的內(nèi)存使用情況。眾所周知,MS SQL 系統(tǒng)將使用分配給它們的所有內(nèi)存。因此,您需要一個(gè)適用于 SQL Server 基礎(chǔ)架構(gòu)的不同模板,而不是運(yùn)行中間件應(yīng)用程序的 MS Windows 服務(wù)器。您的 SQL 服務(wù)器具有其他地方?jīng)]有的特殊操作參數(shù)。
模板化并不容易。您必須了解每個(gè)模板化資源/工作流程的模式。您還必須將您的公司政策和期望構(gòu)建到開發(fā)的模板中。最后,所有模板都必須自動(dòng)進(jìn)行版本控制、保存和備份。
5. 加速根本原因分析
如果您已經(jīng)在使用到目前為止列出的技術(shù),那么您很可能已經(jīng)消除了 50-60% 的潛在問題。您也很可能已經(jīng)被公認(rèn)為高效的網(wǎng)絡(luò)或系統(tǒng)管理員,您的同行可能會(huì)向您尋求幫助和建議。但是,當(dāng)您向他們提供建議并討論 IT 將在未來 5 年內(nèi)經(jīng)歷的變革理念時(shí),又發(fā)現(xiàn)了另一個(gè)資源故障。它的狀態(tài)變?yōu)榧t色,警報(bào)開始出現(xiàn)。但是,因?yàn)槟呀?jīng)消除了 80% 的冗余警報(bào),并且自動(dòng)執(zhí)行了普通管理員必須執(zhí)行的大量分類工作,所以您知道這個(gè)問題不是誤報(bào).
整個(gè)團(tuán)隊(duì)現(xiàn)在都在競(jìng)相尋找根本原因。花在解碼問題上的每一分鐘都意味著多一分鐘的中斷。你不喜歡它。你的老板不喜歡它。而且,最重要的是,您的客戶不喜歡它。但是,作為一名有效的網(wǎng)絡(luò)或系統(tǒng)管理員,您還有一張王牌。幾分鐘之內(nèi),您就可以準(zhǔn)確地知道如何以及在何處查找問題并執(zhí)行根本原因分析。
除了自動(dòng)化,最有效的網(wǎng)絡(luò)和系統(tǒng)管理員明白,能夠訪問正確的工具,不僅可以顯示統(tǒng)一的儀表板,還可以一鍵向下鉆取,是成功和讓客戶滿意的關(guān)鍵(也是讓經(jīng)理滿意的關(guān)鍵) )。結(jié)合適當(dāng)?shù)膯螌硬AВ@些工具非常有效,每周可以為您節(jié)省 10-15 小時(shí)!(這就像每個(gè)工作周都有一天的空閑時(shí)間!)這是一個(gè)單擊向下鉆取功能應(yīng)該如何工作的示例。
6.對(duì)需要大量護(hù)理和喂食的工具說不
正如我們前面所討論的,典型的網(wǎng)絡(luò)或系統(tǒng)管理員有大約 10-12 種工具可供他們用來監(jiān)控他們的 IT 資源。其中至少有一些可能需要幾個(gè)月的時(shí)間來配置、部署和定制。而且,供應(yīng)商通常不會(huì)提及支持其工具所需的大型復(fù)雜基礎(chǔ)設(shè)施。最有效的網(wǎng)絡(luò)和系統(tǒng)管理員了解此類工具的兩個(gè)重要方面:
- 它們的部署和管理成本很高。
- 對(duì)于他們所有的花里胡哨,他們的能力不會(huì)超過 20-30% 將被使用!
那么,他們?nèi)绾螌⑦@一龐大的工具列表縮減為最高效的工具呢?簡(jiǎn)單地說,最有效的網(wǎng)絡(luò)和系統(tǒng)管理員會(huì)問供應(yīng)商一個(gè)關(guān)鍵問題,“管理您的管理系統(tǒng)的成本是多少?”然后他們無情地踢出任何有問題的產(chǎn)品。
“違規(guī)產(chǎn)品”是指任何違反現(xiàn)代管理平臺(tái)四項(xiàng)原則的 IT 管理軟件。
- 零成本部署。
- 沒有管理/維護(hù)成本。
- 一站式解決方案。
- 提供真正的單一窗格視圖。
7. 使用預(yù)測(cè)性和規(guī)范性報(bào)告和分析
對(duì)于網(wǎng)絡(luò)和系統(tǒng)管理員擁有的所有工具,用戶仍然經(jīng)常報(bào)告故障。之所以會(huì)發(fā)生這種情況,是因?yàn)樗斜O(jiān)控工具都超出了資源最終用戶以外的其他人設(shè)置的閾值。即使是大多數(shù)網(wǎng)絡(luò)或系統(tǒng)管理員也無法完全控制他們必須使用的所有工具的所有閾值。
這會(huì)導(dǎo)致以下兩種情況之一:
- 如果閾值設(shè)置得太高,至少有一些用戶會(huì)在警報(bào)消失之前遇到問題。
- 如果閾值設(shè)置得太低,系統(tǒng)可能會(huì)生成數(shù)百個(gè)無意義的警報(bào)。
最有效的網(wǎng)絡(luò)和系統(tǒng)管理員明白解決方案不是簡(jiǎn)單地調(diào)整警報(bào)閾值。相反,他們制定了一個(gè)全面的策略,從報(bào)告失敗到預(yù)測(cè)失敗。他們是怎么做到的?通過部署具有內(nèi)置預(yù)測(cè) 報(bào)告功能的解決方案。
使用來自過去負(fù)載、閾值和可用資源的數(shù)據(jù),預(yù)測(cè)報(bào)告引擎應(yīng)用機(jī)器學(xué)習(xí) (ML) 算法來確定是否存在真正的故障可能性。這是一組預(yù)測(cè)報(bào)告的一個(gè)很好的例子。我們之前已經(jīng)介紹過預(yù)測(cè)報(bào)告,甚至提出了解決方案。但是,請(qǐng)注意,這仍然是一項(xiàng)不斷發(fā)展的技術(shù)。
結(jié)論
那是很多信息。但是,如果付諸實(shí)踐,這七個(gè)習(xí)慣可以讓你的團(tuán)隊(duì)從優(yōu)秀變成優(yōu)秀!如果您了解更多技術(shù)或希望我們更詳細(xì)地解釋任何內(nèi)容,請(qǐng)?jiān)谙旅姘l(fā)表評(píng)論。擁有您所需的工具來做您想做的事。